追赶GPT-4!微软发布最新研究成果:利用GPT-4追赶GPT-4(中文适用 & 含数据)
引言
今天,阿里的大型语言模型(通义千问)开始公测,算上之前清华的ChatGLM和百度的文心一言,这应该是国内公布的第三个大型语言模型了吧。面对这个风口,国内如此,相信国外同样如此。但,尽管很多的公司/机构在不断地推出自己的大型语言模型(LLMs),但都无法撼动Chat-GPT、GPT-4的地位。「如何追赶Chat-GPT/GPT-4呢?微软昨天(4月6日)刚刚公布的一篇文章的研究成果或许能给你一些启发」。论文及数据连接放在最后。
背景介绍
大型语言模型 (LLM) 已经显示出了强大的泛化能力,例如字幕生成、图片描述、机器人动作规划等。为了使 LLMs 能够遵循自然语言指令并完成实际任务,「研究人员一直在探索 LLMs 指令调优的方法」。目前该方法主要分为两类:一类是通过基于人工prompt和反馈对模型进行微调;另外一类是使用公共基准和数据集进行监督微调并通过手动或自动生成的指令来实现对模型的微调。在这些方法中,Self-instruct Tuning 是一种简单有效的方法,该方法从最新先进的指令调优LLMs生成的指令来实现对模型的微调。「事实证明,指令调优研究已经成为提高 LLM 的零和少样本泛化能力的有效手段」。最近火热的ChatGPT和GPT-4为使用指令调优改进开源 LLM 提供了巨大的机会。为了推进 LLM 指令调优的最新技术水平发展,「作者首次提出使用 GPT-4 作为老师进行Self-Instruct Tuning」 。文章主要贡献如下:
「GPT-4生成数据」。公布了由GPT-4生成的数据,包括中英文的52K指令跟踪数据集,以及 GPT-4 生成的对三个指令调优模型的输出进行评级的反馈数据。 「模型和评估」。基于GPT-4生成的数据,我们开发了指令调优的LLaMA模型和奖励模型。 「利用三个测试指标评估指令调优LLMs的性能」:人工评估、GPT-4反馈结果评估、非自然指令的 ROUGE-L评估。实验结果验证了:GPT-4 生成的数据进行LLM指令调优的有效性,并提出了基于LLMs构建通用 instruction-following 的技巧。
数据集
在Alpaca数据集中收集的Instruction-Following数据中,选择了 52K 条特定指令,其中每条指令都描述了模型应该执行的任务。遵循相同的提示策略来考虑有没有输入的情况,输出使用 LLMs 回答指令实例。「在Alpaca数据集中,输出是使用 GPT-3.5 (text-davinci-003) 生成的,但作者考虑使用最新的 GPT-4 (gpt-4) 来生成数据」。这里作者利用GPT-4共生成了以下4个数据集:
「英语Instruction-Following数据集」:Alpaca 收集的 52K 条指令,每条指令提供一个英文 GPT-4 答案。 「中文Instruction-Following数据集」:使用 ChatGPT 将 52K 指令翻译成中文,并让 GPT-4 用中文回答。 「比较数据」:要求 GPT-4 从 1 到 10 对自己的响应进行评分。此外,要求 GPT-4 对三个模型的响应进行比较和评级,包括 GPT-4、GPT-3.5 和 OPT-IML,用来训练奖励模型。 「非自然指令回答数据」:GPT-4的答案在 68K 指令输入输出三元组的核心数据集上解码获取。该子集用于大规模量化 GPT-4 与我们的指令调整模型之间的差距。
LLaMA模型和奖励模型
(i)「LLaMA-GPT4」 在 GPT-4 生成的 52K 英语instruction-following数据上训练得到。 (ii)「LLaMA-GPT4-CN」 在 GPT-4生成的 52K 中文instruction-following数据上训练得到。
依据以上两个模型。研究 GPT-4 的数据质量以及在一种语言中对 LLMs 进行指令调优时的跨语言泛化特性。
基于人类反馈的强化学习 (RLHF) 旨在使 LLM 行为与人类偏好保持一致,以使其更有用。RLHF 的一个关键组成部分是奖励建模,其中问题被表述为回归任务,以预测给定提示和响应的奖励数值。最近的研究表明,GPT-4 能够识别和修复自己的错误,并准确判断响应的质量。因此,「为了促进RLHF的研究,作者使用 GPT-4 创建了比较数据,同时为了评估数据质量,训练了一个基于OPT 1.3B 的奖励模型进行评估」。
GPT-4数据评估
人工评估
使用Amazon Mechanical Turk并根据Anthropic AI的“Helpfulness”, “Honestness” 以及“Harmlessness”标准对模型生成结果进行了人工评估。具体是:分别利用GPT-4和GPT-3生成的数据对中英两种指令调优的LLaMA模型进行微调,并比较两种模型的效果。
GPT-4反馈结果评估
受 Vicuna 的启发,在 80 个未见过的问题上,利用GPT-4 评估不同聊天机器人模型生成的响应结果质量。GPT-4 被要求使用 1 到 10 的等级对两个模型之间的响应质量进行评分,并将结果与强大的竞争模型(ChatGPT 和 GPT-4)进行比较。
ROUGE-L评估
Alpaca 在平均 ROUGE-L 分数方面优于 LLaMA-GPT4 和 GPT-4。当 Ground Truth 响应长度增加时,LLaMA-GPT4 和 GPT-4 的表现逐渐优于 Alpaca。LLaMA-GPT4 可以紧密跟随 GPT-4 在不同子集中的行为。「LLaMA-GPT4 和 GPT-4 倾向于生成包含简单基本事实答案的响应,并且会添加额外的单词让响应更像日常聊天,这导致获得了较低的 ROUGE-L 分数」。
推荐阅读
[1]麻省理工(MIT)的最新研究:可能重塑你对LLMs的理解!
[6]收藏!ChatGPT等大语言模型(LLMs)测试数据集